IF36 - Visualiser des données
Avatar, le maître du R
Date de sortie : 2025-04-28Pour la réalisation du projet, nous avons décidé de nous baser sur divers datasets autour de la plateforme Steam et de sa grande bibliothèque de jeux. L'objectif est d'analyser le marché du jeu vidéo, ses tendances, ses hauts et ses bas.
Notre équipe
Datasets initiaux
Compte rendu
Introduction
Steam
Steam est une plateforme de distribution de jeux vidéo développée par Valve.
Elle permet aux utilisateurs d’acheter, télécharger et jouer à une grande variété de jeux sur PC, Mac et Linux. En plus de proposer un vaste catalogue de jeux (environ 140 000), Steam permet d’évaluer et de donner son avis sur son expérience expérience de jeu.
Données
Dans le cadre de notre projet, nous avons choisi d’étudier divers jeux de données autour du catalogue de jeux Steam. Les datasets utilisés lors de ce projet sont les suivants :
- Dataset de NewbieIndieGameDev datant d’Octobre 2024 (140 000 jeux recensés)
Les datasets sont sous format de différents fichiers csv. Cependant,
NewbieIndieGameDev utilisant probablement un logiciel tiers pour
manipuler ses données, certains csv sont mal formatés et imparsables par
un programme (données json dans une colonne, balises html, …).
Nous
devons donc les modifier au préalable. Nous avons déjà “reformaté” le
fichier games.csv afin de le rendre lisible par nos
programmes et vérifier que nous sommes bien capables de les traiter pour
notre projet.
Ainsi dans le dossier data : pour chaque fichier qui
possède ce problème, il y aura un fichier
raw_<nom_du_fichier>.csv qui sont les données
brutes (“illisibles”) et
clean_<nom_du_fichier>.csv qui sont les données
reformatées pour qu’elles soient “lisibles”.
Ces datasets possèdent de nombreuses variables. Nous allons nous concentrer sur ceux qui nous semblent assez pertinentes à analyser. Description des fichiers et de leur contenu :
games.csv: regroupe les métadonnées des jeux, notamment :app_id(discrètes) : identifiant unique du jeu sur Steamname(nominales) : titre du jeuprice(continues) : prix d’achatlanguages(nominales) : les langues disponibles sur le jeu
steamspy.csv: fournit des données issues de SteamSpy, incluant :app_id(discrètes) : identifiant unique du jeu sur Steamdeveloper(nominales) : studio de développementpublisher(nominales): éditeur du jeuowners_range(discretes/continues) : plage estimée du nombre de propriétaires du jeuplaytime_median(discrètes) : durée médiane de jeu par utilisateurconcurrent_users_yesterday(discrètes) : nombre total de joueurs connectés (octobre 2024)genres(nominales) : catégorie du jeu
tags.csv: répertorie les tags attribués à chaque jeu (différents des genres).app_id(discrètes) : identifiant unique du jeu sur Steamtag(nominales) : tag associé au jeu
reviews.csv: contient des informations sur les avis des joueurs :app_id(discrètes) : identifiant unique du jeu sur Steamreview_score_description(oridnales) : évaluation globale (Overwhelmingly Positive, Very Positive, Mixed, etc.)positive/negative(nominales) : nombre d’avis positifs et négatifsmetacritic_score(discrètes) : note Metacriticrecommendations(discrètes) : nombre de recommandations sur Steam
categories.csv: liste les catégories officielles Steam associées aux jeux.app_id(discrètes) : identifiant unique du jeu sur Steamcategory(nominales) : catégorie associée au jeu
Plan d’analyse
Nous tenons à éviter de reproduire les mêmes analyses et visualisations que NewbieIndieGameDev disponible sur ce lien : Vidéo sur l’analyse des données par NewbieIndieGameDev
Avec ces nombreuses données et variables, de nombreuses pistes d’analyse sont possibles :
Notes et avis des joueurs
- Une corrélation est-elle identifiable entre les avis/note (Métacritics ou joueurs) et le temps de jeu ?
- Les avis Metacritic sont-elles corrélées avec les avis données par les joueurs sur la plateforme ?
- Voir l’évolution des évaluations des joueurs des jeux AAA
Genres des jeux
- Quels sont les catégories les plus populaires sur Steam actuellement ?
- Quel est la tendance des jeux sortis récemment ? (genre, jeux indépendants ou AAA, etc…)
- Observer l’évolution des genres de jeu sortis pour déceler des “modes” et période où certains genre de jeux était les plus populaires ?
- À partir des résultats de l’observation précédente, essayer de
comprendre une montée ou baisse des genres.
- Exemple (simple) : est-ce que la croissance du genre battle royale peut-être corrélée/causée avec la sortie du jeu Fortnite
- Exemple (complexe) : Peut-on observer une corrélation entre la sortie de jeux en ligne et le déploiement d’internet dans le monde (nécessite de trouver des données sur le déploiement d’internet)
Jeux indépendants vs AAA
- Les jeux indépendants obtiennent-ils des meilleures évaluations que les AAA ?
- Quelle est la durée de vie d’un jeu indépendant comparée à un AAA? (on essayera de prendre des jeux avec des genres assez similaires)
- Les genres/tags des jeux indépendants sont-ils plus “innovants” que les AAA ?
Prix
- Quels sont les facteurs qui impactent globalement le prix ? (les genres/tags de jeux les plus chers, plus de langues disponibles <=> prix plus chers ?)
- Comparer des jeux avec des avis/notes similaires mais des prix différents pour voir si le temps de jeu moyen est impacté (est-ce que le prix peut influer le joueur à plus jouer pour le “rentabiliser”)
- Comparer les moyennes des prix des jeux par développeurs / studio de développement, pour potentiellement identifier des stratégies économiques chez certains.
Jeux en ligne
- Quels sont les types de jeu en ligne les plus populaires sur Steam ? (FPS, MMO, etc…)
- Déceler certains jeux avec un fort nombre de joueurs connectés et essayer de l’associer à un évènement à ce moment (octobre 2024) qui explique ce nombre élevé : mise à jour conséquente, évènement d’influenceur relançant l’intérêt pour le jeu, etc…
Différences culturelles/géographique et leurs impacts
- Etudier les langues disponibles selon les jeux des développeurs afin de potentiellement déceler des marchés/régions priorisés.
Variables à comparer/Visualisations à réaliser
Voici une liste non exhaustive des variables comparées ainsi que les visualisations que l’on va réaliser :
- Nombre de jeux par genre/catégorie, avec possibilité de filtrer par date de sortie pour analyser les tendances récentes.
- Comparaison entre les scores Metacritic et les avis des utilisateurs sur Steam.
- Corrélation entre le nombre de langues disponibles et le nombre de propriétaires d’un jeu.
- Comparaison entre les jeux issus d’un studio indépendant et ceux d’un grand studio, en comparant l’évolution des ventes réalisées, le prix des jeux et les avis des joueurs (ex : les jeux du studio Supergiant Games vs Ubisoft).
- Analyse des combinaisons de genres les plus fréquentes pour les jeux indépendants et les jeux AAA, afin de mettre en évidence des différences de positionnement. - Évolution des prix de lancement des jeux au fil du temps.
Problèmes et limitations
- Le dataset que l’on a choisi est un “snapshot” du SteamLibrary datant d’octobre 2024. On ne pourra pas réaliser de comparaisons dans le temps à part dans certains rares cas où les variables nous le permettent (prix initial d’un jeu, etc…)
- Pour certaines données notamment provenant de SteamSpy, ce sont des estimations donc les analyses sur ces données perdront une certaine précision
Analyse descriptive
Dans cette partie, nous allons chercher à analyser les différentes variables de notre dataset importé afin d’appréhender les données que nous avons choisis. Nous chercherons à calculer les moyennes et les écarts-types des variables numériques (pour le prix, le nombre d’avis, etc…). Nous étudierons également la répartition de différentes valeurs au sein du dataset (tags, owner_range, etc..). Enfin, nous construirons également une matrice de corrélation afin d’examiner les possibles relations entre les variables du dataset.
Moyennes et Écarts-types
Notes
- La moyenne des notes Metacritics ne concerne que les jeux ayant reçu cette note.
- La moyenne des prix concerne uniquement les jeux payants.
Répartition de différentes variables
Répartition de la plage de propriétaires des jeux Steam
Note
- Ces données proviennent de SteamSpy. Un autre outil existe pour estimer le nombre de copies vendues au total (Gamalytic), mais ce service est payant.
Répartition des jeux Steam sortis par année
Observations :
- On observe l’absence de jeux sortis en 2002.
- On observe également une augmentation nette à partir de 2006. Une explication plausible est que la plateforme Steam est sortie en 2003 et était dédiée à la distribution des mises à jour des jeux Valve. Ce n’est qu’à la fin de l’année 2005 que Steam a décidé de distribuer des jeux tiers sur son marché.
- On observe une augmentation brusque en 2013-2014. Ceci est le résultat du programme Steam Greenlight, un service qui permettait aux développeurs de soumettre leur jeu pour que la communauté Steam puisse voter pour ceux qui vont intégrer le catalogue de la plateforme. Lancé en 2012, ce service va permettre à plus en plus de jeux de pouvoir intégrer le catalogue Steam.
- Il faut prendre en compte également que ce graphique utilise une échelle pseudo-logarithmique, lorsque nous parlons d’augmentation nette, elle ne l’est pas réellement en terme de chiffre. On vous affiche le graphique réel sans échelle logarithmique :
Sources des explications :
- Lien vers l’histoire de Steam : Lien Wikipédia de Steam
- Interview de Gabe Newell sur Steam Greenlight : Interview sur Steam Greenlight en 2013
- Post Reddit sur l’histoire de Steam Greenlight : Lien vers le post Reddit
Répartition des genres des jeux Steam
Observations
- Le genre le plus populaire dans le catalogue Steam est le genre
Indie. - On peut observer ensuite un nombre similaire pour les genres
ActionCasualetAdventure(~ 36k jeux) et pour les genresSimulation,StrategyetRPG(~ 17k jeux).
Note
- Nous avons retiré les genres qui comptaient moins de 1000 jeux pour se concentrer sur les principaux. La plupart des genres retirés étaient de niche (Cinéma ou les logiciels disponibles sur Steam).
Matrice de corrélation
Observations
- Le nombre d’avis positifs semble être corrélé avec le nombre de recommandations (0.93).
- La note Metacritic n’est pas forcément corrélée avec la proportion de notes positives (0.53).
- Certaines valeurs obtenues doivent être discutées comme la corrélation entre le nombre de recommandations et le nombre d’avis positifs/négatifs. En effet, comme il s’agit d’une valeur comptée, cela peut biaiser l’interprétation de la corrélation. En prenant en compte la proportion, nous obtenons une valeur quasi-nulle.
Notes
- Il n’existe pas de corrélation négative dans nos données.
- Nous avons omis la proportion d’avis négatifs dans le tableau car nous obtenons juste le résultat inverse que pour la corrélation pour les avis positifs.
Analyse des prix
Contexte et problématique
Dans cette section, nous allons nous intéresser aux différents facteurs qui peuvent avoir une influence sur le prix des jeux du dataset. Nous avons, à partir des données de notre jeu de données, relevé différents aspects qui seraient intéressants d’analyser afin de mieux comprendre comment peut être défini le prix d’un jeu.
Dans chaque sous-section de cette partie, nous expliquerons qu’est-ce que nous analysons et pourquoi. Ensuite, nous montrerons les graphiques puis les analyserons, pour enfin en donner une conclusion ainsi que les limites de cette analyse.
Préparation des données
Avant de passer à l’analyse, nous devons d’abord traiter et filtrer nos données afin d’obtenir nos visualisations. Nous avons fait le choix de laisser les différentes parties de codes pour les traitements de données uniquement visibles depuis le fichier Rmarkdown (avec explication en commentaires) et non sur le rapport “exporté” (au format HTML).
Nous avons fait ce choix car le rapport a pour but d’analyser et d’observer nos jeux de données et non d’expliquer comment faire tel ou tel graphique.
L’évolution des prix des jeux au fil du temps
Tout d’abord, nous allons nous intéresser à l’évolution des prix au fil des années. Nous avons décidé de commencer par là car en tant que joueur, nous avons tous l’impression que durant les années le prix des jeux n’a cessé d’augmenter. Encore aujourd’hui, c’est d’actualité avec la sortie de la nouvelle console de Nintendo, la Switch 2, avec ses jeux aux alentours des 80~90€.
Nous pensons qu’il est intéressant de voir si ce phénomène s’illustre à travers notre jeu de données.
Visualisation
Voici en premier lieu, un graphique “scalar plot” montrant avec les années sur l’axe horizontal et le prix moyen des jeux de notre dataset sur l’axe vertical.
Le second graphique, lui, montre la même évolution mais cette fois-ci en distinguant les jeux indépendants des jeux de studios généralement à plus gros budget (AAA, AA, ..).
Nous avons voulu les séparer car ce sont deux secteurs bien différents, que ce soit dans leur manière de développer, leur budget, leurs objectifs, …
Observations
Globalement, on observe effectivement qu’il y a bien une tendance haussière du prix des jeux vidéos, en tout cas, sur le catalogue Steam.
Néanmoins, à travers le second graphique, on peut constater que la hausse des prix des jeux ‘Studio’ est bien plus grande que celle des jeux indépendants. Cette tendance correspond tout à fait aux observations que nous ferons plus tard dans le rapport.
Enfin, on peut très clairement distinguer une forte croissance pour les jeux ‘Studio’ aux alentours de 2012~2013. Nous n’avons malheuresement pas réussi à déterminer exactement la cause de cette croissance. Nous avons notamment pensé à la sortie d’une nouvelle génération de consoles avec la PS4 et la XBOX One sorties fin 2013, mais néanmoins, nous n’avons pas observé une différence de prix majeure entre les nouveaux jeux et ceux d’avant (sur PS3 et XBOX 360).
La disparité de genres de jeux vidéo
Pour continuer, nous allons maintenant essayer de déterminer les liens entre les genres des jeux vidéo et leurs prix. Il nous paraît en effet tout à fait cohérent qu’un jeu 3D open-world comme GTA V ou The Witcher III coûte plus cher qu’un jeu comme un Super Mario 2D plateformer (m’enfin ça c’est mal connaître Nintendo hein 👀).
Nous allons donc voir à travers cette section, quels sont les genres de jeux les plus et moins chers. Nous voulons essayer de comprendre pourquoi, puis analyser et comparer plus en détails certains genres entre eux.
Visualisation
Voici une treemap montrant les 50 genres de jeux vidéos les plus fréquents de notre dataset avec le dégradé de couleur indiquant le prix médian par genre.
Nous parlerons du graphique treemap dans la partie observations.
Ce qui nous intéresse ici c’est de mettre le focus sur un genre en particulier : la VR (réalité virtuelle). En effet, celle-ci est très récente dans le marché du jeu vidéo. Nous avons donc voulu savoir quel était l’évolution de cette catégorie depuis son apparition.
Pour cela, nous avons fait un bar plot montrant le nombre de jeux VR sortis par année.
Puis, nous avons également fait un scalar plot pour suivre le prix des jeux VR médians au fil des années.
Observations
Concernant les jeux en réalité virtuelle (VR), on observe clairement une corrélation entre la baisse des prix et leur démocratisation sur le marché. Cela nous paraît parfaitement cohérent. Au fur et à mesure que les technologies ont évolué, et qu’il est devenu plus facile, à la fois pour les développeurs de créer des jeux VR et pour les joueurs d’y accéder (avec la sortie du premier Oculus Rift en 2016), le nombre de jeux a pu augmenter tandis que leur prix diminuait. Nous avons donc ici, selon nous, un exemple de facteur ayant un impact significatif sur les prix des jeux : la complexité liée au développement d’un type de jeu vidéo spécifique et innovant.
Ce critère semble également se confirmer avec le premier graphique (la treemap) : on observe, par exemple, que les jeux en 3D coûtent plus cher que les jeux en 2D. De plus, le genre le plus cher est le JRPG. Cela nous paraît également cohérent, étant donné l’état actuel du marché du jeu vidéo. Aujourd’hui, les jeux à gros budget (ou productions AAA) possèdent très souvent ce tag.
À l’inverse, la treemap confirme également la tendance observée dans la partie sur l’évolution des prix au fil du temps : les jeux indie (jeux indépendants) sont, en général, bien moins chers que les autres.
Les langues disponibles sur les jeux vidéos
Nous allons maintenant analyser si les langues disponibles pour un jeu peut avoir un impact sur son prix.
Nous avons choisi d’étudier cet aspect, car traduire un jeu dans une autre langue représente un travail supplémentaire pour le studio de développement. Celui-ci doit soit embaucher des employés pour chaque langue souhaitée, soit faire appel à des équipes de traduction externes à l’entreprise. De plus, la traduction peut parfois nécessiter des adaptations visuelles d’éléments graphiques directement dans le jeu. C’est notamment le cas lorsque les langues sont très différentes, comme entre les langues asiatiques, qui utilisent des idéogrammes, et les langues occidentales, fondées sur l’alphabet latin.
Ainsi, cela représente un coût supplémentaire à ajouter au développement et ceci pour chaque langue. Voila pourquoi nous pensons qu’il est utile de se pencher sur ce sujet.
Visualisation
Nous avons décidé de partir sur un “scalar plot” avec comme axe horizontal le prix des jeux et comme axe vertical le nombre de langues disponibles :
Comme vous pouvez le constater, le graphique est difficilement lisible en raison de ses échelles. Cela s’explique par la présence de points dits outliers : des valeurs extrêmes en termes de prix ou de nombre de langues, considérées comme des anomalies et ne représentant pas la majorité des données.
Nous avons donc décidé de les retirer afin de réduire l’échelle et d’analyser le graphique plus efficacement.
Observations
Comme nous pouvons l’observer, de nombreux jeux qui possèdent le même nombre de langues se vendent à des prix très différents et inversement de nombreux jeux aux mêmes prix possèdent un nombre de langues très différents. De plus, nous n’observons pas d’augmentation de prix de façon linéaire par rapport au nombre de langues disponibles.
Il ne semble donc pas y avoir de corrélation entre le nombre de langues disponibles et le prix d’un jeu.
Notre hypothèse concernant les moyens et coûts de traduction qui pourraient impacter le prix est donc fausse. Cela nous parraît cohérent étant donné qu’aujourd’hui le support multi-language est devenu une norme pour une grande partie des jeux. Les studios aujourd’hui visent un marché international et donc doivent rendre leurs jeux accessibles pour ces marchés.
Pour revenir sur les points “outliers” du premier graphique, on peut observer que les points tout en haut à gauche sont trop nombrés et regroupés pour être qualifiés de simple outliers. Après investigation dans les jeux de données, nous avons découvert qu’il s’agit principalement de petits jeux à puzzle où il n’y a aucun ou très peu de texte. Par ailleurs, on peut observer une sorte de barrière auquel se rencontre les jeux un peu après 100 langues. Cette barrière (103 pour être précis) représente en réalité le nombre de langues que reconnaît Steam. Ainsi, ces jeux indiquent qui valident toutes les langues car ils n’ont justement pas de traduction à faire pour leur jeu.
Limites de l’analyse sur les prix
Concernant cette partie sur l’analyse de prix, nous avons identifié 2 principales limites qui peuvent nuire à nos résultats.
La première, la plus évidente, c’est que nos données contiennent uniquement les jeux sur Steam. Ainsi, sur un sujet comme le prix des jeux qui est très soumis aux variations du marché des jeux vidéos, cela est dommage de ne pas avoir avoir plus de données. A cause de cela, de nombreux jeux n’apparaissent pas dans ce dataset mais participent tout autant à ce marché et donc impactent les prix.
L’autre limite qui concerne nos données est qu’aujourd’hui en 2025 le prix du jeu n’est plus du tout le seul moyen pour les développeurs de rentabiliser leurs jeux. Les micro-transactions avec les achats intégrés ou encore les DLC (extension d’un jeu payant) sont des stratégies aujourd’hui largement déployées. Malheuresement, nos datasets ne disposent pas de ces données (impossible à récupérer depuis les interfaces ou outils de Steam).
Types de jeux en ligne
Différences entre Catégorie et Tag
Sur Steam, il existe deux types de variables qui permettent de classer les jeux présents sur la plateforme :
Catégories : classifications officielles attribuées par Steam. Elles décrivent les fonctionnalités principales du jeu. Exemples :
Multijoueur,Succès Steam,Support manette,Mode coopératif.Tags : classifications collaboratives créées par les utilisateurs. Ils décrivent le contenu, l’ambiance ou le style du jeu. Exemples :
Puzzle,Narratif,Indépendant,FPS,Monde ouvert.
Contexte et problématique
Steam est un acteur majeur dans le développement du jeu en ligne avec des titres cultes comme Counter-Strike ou Team Fortress. Au fil des années, d’autres genres comme les MMORPG, Battle Royale ou les jeux en coopération ont gagné en popularité. Nous voulons voir les tendances actuelles et quels types de jeux attirent principalement les joueurs de Steam.
Notre problématique est alors la suivante :
Quels sont les types de jeu en ligne les plus populaires sur Steam ? (FPS, MMO, etc…)
Définition de jeu en ligne
Pour commencer notre analyse, il faut tout d’abord définir le terme de jeu en ligne.
Une définition de jeu en ligne sera un jeu vidéo dont l’expérience se repose sur l’intéraction entre plusieurs joueurs en temps réel.
Typologies principales :
MMO(Massively Multiplayer Online)Jeux compétitifs(FPS, MOBA, Battle Royale)Jeux collaboratifs(ex : Euro Truck Simulator 2)
Critères d’identification “jeu en ligne” :
Pour qu’un jeu soit considéré comme en ligne :
Il doit contenir au moins un des éléments suivants dans ses catégories ou tags :
Multiplayer,Massively Multiplayer,Online Co-op, etc.
Pour mesurer la popularité :
On utilise le nombre de joueurs actifs en octobre 2024
(concurrent_users_yesterday dans les données).
Types de jeux en ligne
Pour analyser les types de jeux les plus populaires pour les jeux en ligne et regarder sa distribution dans le magasin Steam, on a retenu les tags suivants uniquement :
- FPS Multijoueur
- Battle Royale
- RPG en ligne
- Coopération en ligne
- Sandbox
- Survival Multiplayer
- Autres (correspondant aux autres tags non classés)
Analyse des résultats
Voici la répartition des joueurs sur la plateforme Steam sur les jeux en lignes :
Observations
- Les jeux FPS Multijoueur est de loin le genre dominant avec 1,5 million de joueurs actifs, dont 1,1 million sur Counter-Strike 2 à lui seul.
- Autres genres comptent 1,3 million de joueurs avec des jeux variés comme War Thunder, Euro Truck 2, Civilization VI, etc. Cette catégorie montre la diversité des jeux en ligne.
- Les Battle Royale regroupe 1 million de joueurs (~16,5 %). Bien qu’en déclin par rapport à 2018-2020, ce genre reste populaire.
- Les RPG en ligne regroupent environ 1,2 million de
joueurs. On y trouve :
- Des MMORPG (Destiny 2, New World, etc.)
- Des RPG coopératifs (Baldur’s Gate 3, Stardew Valley)
- Les Survival Multijoueur comptent 800 000 joueurs sur des titres comme Rust, Satisfactory, Factorio.
- Les MOBA n’ont seulement 550 000 joueurs, dont la grande majorité provient de Dota 2.
Les RPG en détails
Nous allons approfondir notre analyse dans le type RPG en essayant de séparer et de voir la répartition des RPG en ligne et des MMORPG.
Voici la répartition des joueurs jouant à des MMORPG et des joueurs de RPG classique :
Note :
- Stardew Valley a le tag RPG et est un jeu qui peut se jouer en multijoueur, mais peut-on le considérer comme un jeu en ligne ? C’est le cas de d’autres jeux principalement singleplayer mais qui peuvent se jouer en multijoueur.
Limites des résultats obtenus
Les tags Steam et les catégories créées ne sont pas assez précises pour trouver les jeux en ligne car on se retrouve souvent à la frontière d’un jeu avec un système multijoueur et un jeu en ligne.
D’autres visualisations au sein des catégories nous permettraient de voir qu’uniquement quelques jeux portent la base de jeu de certains types de jeux comme CS 2 pour les FPS et Dota 2 pour les MOBA.
Le fait que la catégorie “Autres” possède de nombreux jeux en ligne que l’on a pas pu classer montre que le domaine des jeux en ligne est très varié et non cantonné aux genres auxquels on pense habituellement. Globalement, réaliser une classification sur l’ensemble des jeux Steam semble difficile tant certains jeux sont assez particuliers pour les catégoriser.
Enfin, il faut être conscient que ces données ne concernent que les utilisateurs Steam et non la globalité des joueurs. Par exemple, pour les MMORPG, ceux-ci peuvent être lancés hors Steam. De plus avec l’avènement de l’Epic Games Store, une partie des jeux ont quitté Steam pour passer sur cette nouvelle plateforme. C’est notamment le cas de Rocket League.
Les jeux les plus populaires
Dans cette partie, nous allons observer les jeux avec le plus de joueurs actifs en même temps. Voici les données pour le dataset que l’on a qui indique le nombre de joueurs en Octobre 2024 :
Pour les données plus récentes, nous avons récolté le nombre de joueurs actifs sur le site SteamDB. Voici le même graphique pour Juin 2025 :
Observations
- Il existe 3 jeux principaux qui regroupent la majorité des utilisateurs Steam : Counter-Strike 2, PUBG et Dota 2 avec plus de 500k joueurs.
- On peut remarquer une augmentation significative de la base de joueurs de ces 3 jeux entre octobre 2024 et juin 2025, notamment Counter-Strike 2 qui compte 400k joueurs supplémentaires d’après nos données mais il est de 200k en réalité (SteamDB - Page CS2)
- Certains jeux comme Black Myth: Wukong ou Liar’s Bar sont sortis en octobre 2024, ce qui peut expliquer leur présence dans les jeux les plus populaires de Steam et leur absence dans le second graphique. La même remarque est à réaliser pour les nouveaux jeux sortis en juin 2025 comme Stellar Blade, Dune: Awakening ou ELDEN RING NIGHTREIGN qui viennent juste de sortir
- La présence de
Free-to-playpeut aussi expliquer la présence de Bongo Cat et de Delta Force dans le graphique de juin 2025. On note 5 jeux FTP dans le classement de 2025. - En juin 2025, bien qu’ils ne fassent pas parti des 10 jeux les plus populaires, NARAKA: BLADEPOINT (12ème) et Stardew Valley (19ème) possèdent une base de joueurs assez fidèle. Rust, quant à lui, reste dans le classement à la 10ème place.
- Pour Stardew Valley, on peut supposer que sa promotion (-50%) en octobre lui a permis de rentrer dans le classement des jeux les plus populaires.
- Pour Factorio, la raison de sa présence en octobre
est dû à la sortie de son contenu additionnel
Factorio: Space Agesorti en octobre 2024. - Pour Liar’s Bar, sa popularité vient de nombreux lives et vidéos réalisés par des créateurs de contenu comme sur la plateforme Twitch.
Conclusion
On peut observer plusieurs caractéristiques communes des jeux les plus populaires sur Steam :
- Les jeux sont
Free-to-play - Les sorties récentes de jeux ou de contenus additionnels
- Les soldes du jeu
- Le jeu devient le contenu tendance des créateurs de contenu (streamers/youtubers)
Le classement des jeux les populaires est assez versatile, mais le top 3 reste identique même au fil des années grâce à une base de joueurs conséquente.
Limite de l’analyse
- Le nombre de joueurs récoltés de notre dataset n’est pas forcément une mesure très précise car elle enregistre le nombre au moment de la récolte de la donnée. Or le nombre de joueurs d’un jeu varie grandement au cours d’une journée (plus de joueurs le soir et à des heures creuses) et au cours de la semaine (plus de joueurs le week-end).
Analyse des notes des jeux studio et des jeux indépendants
Introduction
L’industrie du jeu vidéo traverse une période compliquée depuis plusieurs années. Les plus grosses entreprises du milieu enchaînent les polémiques : entre licencements intensifs, management toxique et jeux très moyens aux yeux de la critique dont les prix ne cessent d’augmenter, le milieu ne cesse d’évoluer.
Quelle est la différence entre un jeu studio et un jeu indépendant ?
Un jeu studio est un jeu vidéo développé par une entreprise. On peut attribuer ce terme pour classifier les jeux vidéos dotés d’un certain budget de développement et de promotion, avec de grandes équipes d’employés. On peut donc s’attendre à des productions de qualité, avec des jeux vidéos AA voire même AAA selon la quantité de ressources utilisée pour le développement du projet.
Cependant, ces productions font face à plusieurs critiques récurrentes telles que le manque d’innovation, une uniformisation des contenus, ou encore des pratiques commerciales controversées (microtransactions, loot boxes, DLC abusifs).
À l’opposé, les jeux indépendants sont souvent développés par des équipes réduites ou par des développeurs individuels disposant de moyens financiers et techniques limités. Ce contexte leur permet généralement une plus grande liberté créative, donnant naissance à des jeux originaux, audacieux et parfois innovants.
Problématique
Face à ce contexte qui oppose budget et innovation, une question se soulève quant à la qualité des jeux auprès du grand public :
Les jeux indépendants obtiennent ils de meilleures évaluations que les jeux fait par des studios ?
Chargement et préparation des données
Afin de réaliser l’analyse, on va utiliser les fichiers raw_reviews.csv
et tags.csv
qui seront suffisants. Les deux fichiers sont reliés par
app_id, tags.csv va nous permettre de séparer les jeux par
le groupe des jeux indépendants et celui des jeux studios, et
raw_reviews.csv va nous permettre d’obtenir les notes attribuées pour
chaque jeu. Dans un second temps, nous utiliseront la variable steamData
qui regroupe l’ensemble des données pour faire des analyses plus
précises.
Préparation des jeux
Steam possède un tag spécialement pour les jeux indépendants, qui se nomme “Indie”. Ce n’est pas le cas pour les jeux de studios. Cependant, on peut facilement les obtenir en récupérant l’ensemble des jeux, puis en enlevant les jeux indépendants.
Par la suite, on peut tout mettre dans un nouveau dataset nommé
types_games qui recense l’ensemble des jeux avec leur
catégorie propre.
Préparation des évaluations
Pour les évaluations, on va créer un nouveau dataset avec seulement
les informations dont nous avons besoin, c’est-à-dire
app_id et review_score_description. On va
ensuite filtrer review_score_description afin d’obtenir
seulement les jeux qui ont une évaluation. La colonne peut avoir
d’autres valeurs, comme “None”, “1 user reviews” etc… car Steam attribue
une évaluation à un jeu seulement à partir d’un certain nombre
d’évaluations de la part de la communauté.
Visualisations
Avec ggplot2
Enfin, pour la visualisation de nos données, je me suis orienté sur un diagramme à barres. L’objectif est de comparer directement les types de jeu selon le niveau d’évaluation.
Le problème est que ce n’est pas égal de faire la comparaison
actuellement. Comme on peut le voir plus au dessus grâce à la fonction
nrow, studio_games possède 54 252 jeux, tandis que
indie_games en possède 63 253. On va donc faire une moyenne
globale pour être au même niveau.
La fonction “geom_bar” nous permet de définir l’option “position = dodge” afin d’avoir les barres côte à côte pour une meilleure lisibilité.
Avec Shiny
Pour avoir une vue avancée des résultats, nous avons conçu l’application shiny sur la thématique de cette partie. Dans l’onglet “Graphique”, on peut retrouver un encadré “Filtres” qui permet à l’utilisateur de définir le type de jeu qu’il souhaite analyser (studio ou indépendant) en direct, mais surtout de dire s’il veut le résultat en nombre ou en pourcentage ainsi que d’activer les “Non Évaluation”.
Observations
L’analyse du graphique montre que, proportionnellement, les jeux issus de studios obtiennent légèrement plus d’évaluations “Very Positive” que les jeux indépendants. Toutefois, les différences restent relativement faibles, et la majorité des jeux indépendants reçoivent également des évaluations globalement positives. Les jeux indépendants affichent une proportion un peu plus élevée d’évaluations “Mixed”, ce qui pourrait refléter une plus grande diversité de qualité au sein de cette catégorie. Cela amène à nuancer l’hypothèse initiale : si les jeux indépendants reçoivent de nombreuses bonnes évaluations, les jeux de studios conservent tout de même une légère avance en termes de perception positive moyenne sur Steam.
Cette hypothèse découle du fait qu’aujourd’hui, les joueurs se focalisent sur une petite partie du monde vidéoludique. De nouveaux jeux sortent chaque jour ; certains sont excellents, mais ils ne bénéficieront pas forcément de la même visibilité que les jeux colossaux développés par les grandes entreprises, comme Microsoft, Ubisoft, Activision Blizzard, Rockstar, etc.
En faisant l’application Shiny, je me suis aussi rendu compte qu’enfait une grande partie des jeux Steam ne possèdent pas d’évaluations. Comme expliqué plus haut, pour que Steam puisse attribuer un des 5 types principaux d’avis, il faut au minimum un certain nombre d’avis. Si ce nombre n’est pas atteint, le jeu n’est pas catégorisé selon ses retours. Le nouveau type d’avis “Non Évaluation” regroupe tous ces jeux.
Focus sur différents studios de jeux
Nous allons maintenant comparer différents studios, avec d’un côté des studios produisant des jeux AAA, et de l’autre, des studios indépendants. Nous nous appuierons sur six studios aux profils variés :
- Ubisoft : studio français mythique et reconnu, à l’origine de nombreuses productions AAA telles que Assassin’s Creed et Far Cry.
- Supergiant Games : studio indépendant qui a marqué les esprits avec le jeu Hades.
- FromSoftware Inc. : studio AAA évoluant dans un registre différent d’Ubisoft, notamment connu pour la série Dark Souls.
- Scott Cawthon: développeur indépendant ayant créé à lui seul l’un des plus grands univers du jeu d’horreur : Five Nights at Freddy’.
- Treyarch: branche emblématique d’Activision, responsable d’une partie du développement des jeux Call of Duty, notamment la série Black Ops.
- Moon Studios: studio indépendant qui a ébloui le monde du jeu vidéo avec le style artistique de la série Ori.
Maintenant que nous avons réuni des studios issus de tous les horizons, nous allons observer les évaluations obtenues pour plusieurs de leurs jeux et les comparer. L’objectif est d’explorer davantage la question de la notation et la potentielle influence du tag “Indie”.
Avec ggplot2
Avec Shiny
Dans l’onglet “Navigateur” de l’application, il est possible de chercher un développeur, que ça soit un studio ou une personne : l’entreprise qui a crée le jeu. En le sélectionnant, le tableau de bord donnera le nombre de jeux produits ainsi que les types d’avis reçus.
Observations
Suite à cette visualisation, on peut constater que les trois studios indépendants sont ceux qui obtiennent proportionnellement le plus de notes positives. Ils sont suivis de près par FromSoftware. L’objectif ici est uniquement de constater les avis des joueurs par rapport aux jeux produits. Les chiffres ne sont pas équivalents, mais, par exemple, Hades, un grand jeu indépendant produit par Supergiant Games, a reçu 258 000 évaluations, un chiffre qu’aucun jeu AAA produit par les grands studios de la liste n’a atteint.
Conclusion
Pour conclure, non, les jeux indépendants n’obtiennent pas nécessairement de meilleures notes que ceux produits par les gros studios. On peut toutefois constater qu’une forme de méritocratie s’est installée dans l’esprit des joueurs : ils font beaucoup de bruit pour des jeux indépendants excellents, et de même pour dénoncer des jeux à gros budget jugés médiocres. Il n’est pas normal qu’avec des moyens colossaux, certaines entreprises livrent des produits inachevés, sans âme, au point d’en oublier le concept même du jeu vidéo : l’amusement.
Tendance des jeux sortis récemment
Contexte général
Parmi les caractéristiques d’un jeu Steam, l’une d’entre elle nous intéresse particulièrement dans ce rapport. En effet les tags permettent aux joueurs de se faire une idée rapide des jeux proposés ou encore de rechercher de nouveaux jeux selon leurs préférences.
Le jeu de données que nous allons utiliser ne comporte pas de données permettant de dresser une temporalité. Ce rapport portera donc sur les données du catalogue Steam en octobre 2024.
Les catégories ne doivent pas être confondues avec les tags. Ici, les catégories représentent comment on joue au jeu (multiplayer, online pvp, remote play on phone etc), alors que les tags représentent le type de jeu (survival, tactical, FPS, old school, etc).
Problématique
Ce rapport traitera une question pour le moment:
- Quelle est la tendance des jeux sortis récemment ?
Cela nous permettra d’avoir une idée globale de la répartition des joueurs dans les catégories majeures sur Steam pour les nouveaux jeux. Cette analyse pourrait être utile à un studio pour orienter son futur jeu vidéo par exemple.
Analyse
Import des données
Premièrement il faut importer les données nécessaires à cette
analyse, ainsi que charger les librairies requises pour travailler et
visualiser les données. Nous allons utiliser les données des fichiers
tags, steamspy et games.
Précision et définition
Ici, on cherche à représenter la tendance actuelle. On utilisera donc la population Steam présente le jour de la construction du dataset (bien que pas objectivement représentatif cf. interprétation). On cherche également à se concentrer sur les jeux récents. On utilisera donc tous les jeux sortis en 2024.
Voilà un aperçu des tags les plus populaires selon le contexte établi.
Meilleures catégories
Dans cette partie, on se concentrera uniquement sur les catégories de jeux, mais également sur tout l’historique des nombres de possesseurs contrairement au graphique précédent où l’on évoquait les joueurs connectés. Les données utilisées portent sur les jeux de toutes les années de notre dataset.
Visualisation
Interprétation
On peut voir que premièrement, les catégories les plus présentes sont très génériques. Cela peut s’expliquer du fait qu’elles sont présentes sur énormément de jeux quelque soit leurs autres catégories. Typiquement on ne voit pas de catégories spécifiques comme “farm” ou “war” par exemple.